GPT-4o最自私,Claude更慷慨!DeepMind发布全新「AI道德测试」
GPT-4o最自私,Claude更慷慨!DeepMind发布全新「AI道德测试」智能体在模拟人类合作行为的捐赠者游戏中表现出不同策略,其中Claude 3.5智能体展现出更有效的合作和惩罚搭便车行为的能力,而Gemini 1.5 Flash和GPT-4o则表现得更自私,结果揭示了不同LLM智能体在合作任务中的道德和行为差异,对未来人机协同社会具有重要意义。
智能体在模拟人类合作行为的捐赠者游戏中表现出不同策略,其中Claude 3.5智能体展现出更有效的合作和惩罚搭便车行为的能力,而Gemini 1.5 Flash和GPT-4o则表现得更自私,结果揭示了不同LLM智能体在合作任务中的道德和行为差异,对未来人机协同社会具有重要意义。
国产之光DeepSeek V3竞技场排名新鲜出炉—— 优于o1-mini(总榜第7),获最强开源模型认证(也是唯一闯入前10的开源模型)。
最近,AI编程圈出现了一个新面孔——Windsurf,这又是一款基于 Claude 的 AI 编程助手,一经推出就在开发者社群引起了不小的轰动。作为一名关注AI编程工具的开发者,我也第一时间上车,花费15刀购买了一个月的会员体验。
Transformer——支撑像 OpenAI 的 ChatGPT 和 Anthropic 的 Claude 这样的聊天机器人的基础 AI 技术——正在帮助机器人更快地学习。
在 2024 年底,探索通用人工智能(AGI)本质的 DeepSeek AI 公司开源了最新的混合专家(MoE)语言模型 DeepSeek-V3-Base。虽然,目前没有放出详细的模型卡,但官方开源了V3的技术文档PDF。
还没等到官宣,Deepseek-v3竟意外曝光了?!
简单才是王道,Anthropic 的智能体开发的“反直觉”法则
给大模型智能体组一桌“大富翁”,他们会选择合作还是相互拆台? 实验表明,不同的模型在这件事上喜好也不一样,比如基于Claude 3.5 Sonnet的智能体,就会表现出极强的合作意识。 而GPT-4o则是主打一个“自私”,只考虑自己的短期利益。
今天,大模型公司 Anthropic 的一篇 137 页长论文火了!该论文探讨了大语言模型中的「伪对齐」,通过一系列实验发现:Claude 在训练过程中经常假装有不同的观点,而实际上却保持了其原始偏好。
成立仅三年,估值180亿美金Anthropic正义迅雷不及掩耳之势,一步步蚕食OpenAI市场份额。在过去3个月,他们编程收入暴增10倍,还抢走了最火的Cursor,OpenAI的高管们彻底坐不住了!